Skip to content

Conversation

shilin66
Copy link
Contributor

@shilin66 shilin66 commented Aug 8, 2025

PDF解析器配置说明

概述

  • 支持配置多个PDF解析器,用户可以在创建知识库和聊天文件设置中选择不同的PDF解析器。
  • 针对不同的解析器可以自定义需要增强解析的文件格式

配置结构

customPdfParse 现在是一个数组类型,每个解析器包含以下字段:

{
  "systemEnv": {
    "customPdfParse": [
      {
        "name": "解析器名称",
        "desc": "解析器描述",
        "url": "解析器API地址(可选)",
        "key": "API密钥(可选)",
        "doc2xKey": "Doc2x API密钥(可选)",
        "price": "每页价格",
        "extension": "支持的文件扩展名,用逗号分隔"
      }
    ]
  }
}

前端变化

  1. 知识库创建页面: 在训练参数设置中,PDF增强解析从复选框改为下拉选择器
  2. 聊天文件设置: 在应用配置的文件上传设置中,PDF增强解析也改为下拉选择器
  3. 价格显示: 根据选择的解析器动态显示对应的价格

知识库配置

image --- image

应用配置

image

数据库变化

  • customPdfParse 字段从 Boolean 类型改为 String 类型,存储选中的解析器名称
  • 空字符串表示使用系统默认解析器

API变化

  • 新增 /api/system/getPdfParsers 接口,用于获取可用的PDF解析器列表
  • 新增/api/admin/migratePdfParseConfig接口,用于将历史数据中使用了pdf解析的数据修改为数组的第一个解析器
  • 所有涉及 customPdfParse 参数的API,参数类型从 boolean 改为 string

Copy link
Contributor

gru-agent bot commented Aug 8, 2025

There is too much information in the pull request to test.

Copy link

github-actions bot commented Aug 8, 2025

Preview sandbox Image:

registry.cn-hangzhou.aliyuncs.com/fastgpt/fastgpt-pr:fatsgpt_sandbox_b80de4d5e36a4c02eaccf54937e0aff803758f55

Copy link

github-actions bot commented Aug 8, 2025

Preview mcp_server Image:

registry.cn-hangzhou.aliyuncs.com/fastgpt/fastgpt-pr:fatsgpt_mcp_server_b80de4d5e36a4c02eaccf54937e0aff803758f55

Copy link

Preview fastgpt Image:

registry.cn-hangzhou.aliyuncs.com/fastgpt/fastgpt-pr:fatsgpt_b80de4d5e36a4c02eaccf54937e0aff803758f55

@bravegoo
Copy link

什么时候可以合并更新呢

@c121914yu
Copy link
Collaborator

c121914yu commented Aug 16, 2025

这个就不叫 pdf 增强解析了,有点像选不同文件的解析器了。
而且还需要考虑多语言配置,需要等产品单独对这块交互进行设计。

@shilin66
Copy link
Contributor Author

这个就不叫 pdf 增强解析了,有点像选不同文件的解析器了。 而且还需要考虑多语言配置,需要等产品单独对这块交互进行设计。

是的,我原本准备直接改成叫文件增强解析的,想了一下还是先提个pr过来看看你们的意见

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
None yet
Development

Successfully merging this pull request may close these issues.

3 participants